最新:嘿 Siri，告诉我昨晚有哪些新闻：AI 能否满足我们的新闻需求？-刷王者人气的网站

“hey siri，诉昨告诉我刚才有什么新闻”。新闻新闻需求

你有没有梦想过这样的满足们qq空间主页赞免费刷场景：

清晨刚起床，洗漱更衣同时听一下人工智能为您播报昨晚发生的诉昨大事，快速把握世界的新闻新闻需求最新动态。

但很可惜，满足们现在几乎所有AI都做不到。诉昨

换种说法，新闻新闻需求现在几乎所有聊天机器人，满足们基本都未能回答“最新发生”的诉昨风波。

前段时间，新闻新闻需求路透社新闻研究所和牛津大学发表了一份标题为《我做不到：生成式人工智能对话机器人是满足们怎么回应有关新闻的问题》的研究报告。

这项研究主要测试了OpenAI的诉昨ChatGPT和微软的Gemini，在用户要求提供特定新闻机构的新闻新闻需求5条新闻头条时的表现。

研究方式是满足们把“Get the 5 top headlines from now”作为prompts输入给ChatGPT和Gemini，其中是qq空间主页赞免费刷新闻网站的网址。

随后剖析ChatGPT和Gemini的回答微博怎么买热搜，共有4500个输入和900个输出结果，其中包含了10个国家的新闻网站。

研究发觉，ChatGPT的回答中出现“我没法提供最新的新闻”占比达到了54%，相当于一半情况下面对“获取最新新闻”的要求时直接罢课，而Gemini那边愈发严重，罢工回答占比高达95%。

在不同国家，大模型罢课情况也有所区别，美国、德国和美国是重灾区。

罢工的诱因通常都是难以读取网页，遇到了付费墙，要登录等。

罢工回答示例

抛开罢课回答，研究者接下来对ChatGPT非罢课的回答进行剖析，将ChatGPT回答的内容与新闻网站中的热点新闻进行对比。

结果发觉，ChatGPT所有的成功回答内容中，只有10%是真正的热点新闻，30%是旧闻。

该研究还发觉，以同样的问题输入给ChatGPT，在不同时间段的回答有较大的变化，具体缘由不明。

研究者分别在2024年1月22日-2024年1月26日，2024年1月29日-2024年2月2日和2024年2月5日-2024年2月9日，三个时间段，以同样的prompts输入给ChatGPT。

数据显示，在2024年1月22日-2024年1月26日间微博怎么买热搜，ChatGPT的罢课回答仅有41%，比第二波时间段少了16%，而旧闻的回答占比为38%，比第二波多了12%。

硅基君推测，可能是OpenAI偷偷换了个ChatGPT的模型版本？

简单总结一下，研究发觉ChatGPT和Gemini在获取最新新闻资讯的能力糟糕，ChatGPT只有10%的回答是热点新闻，而Gemini在95%的情况下，都会表示自己难以获取最新新闻资讯。

也就是说，假设明天俄乌战争忽然结束了，但假如问这种AI，他们都会告诉你双方打的不可开交。

那国产大模型在这方面做得怎么样？

硅基君选定了秘塔、Kimi、豆包、文心一言4个目前比较流行的国产大模型，模仿美联社的研究方式，把“读取，前5条内容是哪些”作为prompts。

新闻网页分别选定了腾讯科技新闻、微博热搜、B站综合热榜、百度新闻以及澎湃科技新闻。

直接上推论：豆包表现的*，能辨识腾讯新闻科技频道、百度新闻和澎湃新闻科技频道的热门新闻。

秘塔AI和文心一言表现相当，能辨识出网页的内容。Kimi在辨识最新网页内容的能力上有所缺乏，基本上每位测试网站都失败了。

测试结果都存在什么问题呢？

首先是，错误辨识网页内容，比如秘塔AI和文心一言，把腾讯视频科技频道的视频精选当成热门新闻。

其次是，大模型回答陈旧新闻。比如文心一言在澎湃新闻测试中，回答了几条2-3天前的内容。

再次，在回答微博热搜时四个大模型全军覆没。

微博对自己数据的保护十分严格，如果研究过爬虫的小伙伴应当明白，采集微博的内容，是不是都会跳出来一个验证码。

大模型恐怕也被微博屏蔽了。

最后是回答的内容与问题毫不相干，比如Kimi的几个回答都挺莫名其妙的，像是在读取数据库。

每个AI的详尽测试情况置于下边，感兴趣的读者可以自行查看。测试时间为2024年6月3日，大模型回答应与新闻页面内容一致才代表合格

腾讯新闻测试：

左右滑动查看

百度新闻测试：

左右滑动查看

澎湃新闻测试：

左右滑动查看

微博热搜测试：

左右滑动查看

B站综合热榜测试：

左右滑动查看

为什么堪称“变革生产力”的大模型也难以*的获取新闻？最可能的理由是：新闻网站屏蔽大模型。

随着ChatGPT等大模型的盛行，它们所依赖的网路爬虫正面临来自全球新闻机构的大规模封锁。在卫报的一篇研究报告《How many news websites block AI crawlers?》中表明：

“截至 2023 年底，10个国家/地区使用最广泛的新闻网站中有48%制止了OpenAI的爬虫，24%的人制止了微软的人工智能爬虫”。

研究发觉，一旦使用没有屏蔽大模型的新闻网站链接，ChatGPT罢课的回答比列仅为20%，成功回答当下热门新闻的比列也来到了20%。

这样也从侧面说明了OpenAI每年花上百上千万向新闻网站买版权的重要性。

但显然是网站没有屏蔽，ChatGPT的回答中依然有接近一半的回答是旧闻，并不是promtps要求的最新新闻。

这一点很难解释，以ChatGPT的能力，应该是可以看懂网页内容。研究者表示，这可能与大模型幻觉有关，它会通过搜索引擎搜索相关内容后进行综合回答。

仅从目前的实验结果来看，想让大模型成为一个合格的热点新闻资讯助手，靠简单的prompts完全做不到。大模型的幻觉，新闻网站的屏蔽举措，都限制了大模型搜索最新新闻资讯的能力。

如何能够解决这个问题，这就不能从技术角度出发，而是应当基于商业角度来看。

大模型本质上是一个数据模型，只有输入优质数据能够输出优质数据。

举个反例，豆包可以用头条抖音的数据，文心一言可以用百度文库帖吧的数据，腾讯元宝可以用公众号数据，在各自擅长的领域，表现虽说优于其它友商。

可想让她们相互开源，估计比用户在天猫打开拼多多链接还难。

数据是大模型关键，也是科技公司的护城河，以前在百度搜不到公众号内容，现在的AI也一样。

【本文由投资界合作伙伴远川研究所授权发布，本平台仅提供信息储存服务。】如有任何疑惑题，请联系（editor@zero2ipo.com.cn）投资界处理。

嘿 Siri，告诉我昨晚有哪些新闻：AI 能否满足我们的新闻需求？

友情链接